What is a rose, visually? A rose comprises its intrinsics, including the distribution of geometry, texture, and material specific to its object category. With knowledge of these intrinsic properties, we may render roses of different sizes and shapes, in different poses, and under different lighting conditions. In this work, we build a generative model that learns to capture such object intrinsics from a single image, such as a photo of a bouquet. Such an image includes multiple instances of an object type. These instances all share the same intrinsics, but appear different due to a combination of variance within these intrinsics and differences in extrinsic factors, such as pose and illumination. Experiments show that our model successfully learns object intrinsics (distribution of geometry, texture, and material) for a wide range of objects, each from a single Internet image. Our method achieves superior results on multiple downstream tasks, including intrinsic image decomposition, shape and image generation, view synthesis, and relighting.
translated by 谷歌翻译
Humans use all of their senses to accomplish different tasks in everyday activities. In contrast, existing work on robotic manipulation mostly relies on one, or occasionally two modalities, such as vision and touch. In this work, we systematically study how visual, auditory, and tactile perception can jointly help robots to solve complex manipulation tasks. We build a robot system that can see with a camera, hear with a contact microphone, and feel with a vision-based tactile sensor, with all three sensory modalities fused with a self-attention model. Results on two challenging tasks, dense packing and pouring, demonstrate the necessity and power of multisensory perception for robotic manipulation: vision displays the global status of the robot but can often suffer from occlusion, audio provides immediate feedback of key moments that are even invisible, and touch offers precise local geometry for decision making. Leveraging all three modalities, our robotic system significantly outperforms prior methods.
translated by 谷歌翻译
A common scenario of Multilingual Neural Machine Translation (MNMT) is that each translation task arrives in a sequential manner, and the training data of previous tasks is unavailable. In this scenario, the current methods suffer heavily from catastrophic forgetting (CF). To alleviate the CF, we investigate knowledge distillation based life-long learning methods. Specifically, in one-tomany scenario, we propose a multilingual distillation method to make the new model (student) jointly learn multilingual output from old model (teacher) and new task. In many-to one scenario, we find that direct distillation faces the extreme partial distillation problem, and we propose two different methods to address it: pseudo input distillation and reverse teacher distillation. The experimental results on twelve translation tasks show that the proposed methods can better consolidate the previous knowledge and sharply alleviate the CF.
translated by 谷歌翻译
建模多代理系统需要了解代理的相互作用。这样的系统通常很难建模,因为它们可以涉及各种类型的相互作用,以促进丰富的社会行为动态。在这里,我们介绍了一种用于准确建模多代理系统的方法。我们介绍了使用多重注意(IMMA)的相互作用建模,这是一种前向预测模型,该模型使用多重潜在图代表多种独立类型的相互作用,并注意对不同优势的关系。我们还介绍了渐进层培训,这是该体系结构的培训策略。我们表明,我们的方法在轨迹预测和关系推理中的最先进模型优于最先进的模型,涵盖了三个多代理方案:社交导航,合作任务成就和团队运动。我们进一步证明,我们的方法可以改善零拍的概括,并使我们能够探究不同的相互作用如何影响代理行为。
translated by 谷歌翻译
我们提出了一个名为Star-GNN的视频特征表示学习框架,该框架在多尺度晶格功能图上应用了可插入的图形神经网络组件。 Star-GNN的本质是利用时间动力学和空间内容以及帧中不同尺度区域之间的视觉连接。它对带有晶格特征图的视频进行建模,其中节点代表不同粒度的区域,其加权边缘代表空间和时间链接。上下文节点通过图形神经网络同时汇总,并具有训练有检索三重损失的参数。在实验中,我们表明Star-GNN有效地在视频框架序列上实现了动态注意机制,从而强调了视频中动态和语义丰富的内容,并且对噪声和冗余是强大的。经验结果表明,STAR-GNN可实现基于内容的视频检索的最新性能。
translated by 谷歌翻译
经过对人体跟踪系统引起的隐私问题的调查,我们提出了一种黑盒对抗攻击方法,该方法对最先进的人类检测模型,称为Invisibilitee。该方法学习了可打印的对抗图案,适用于T恤,这些T恤在人体跟踪系统前的物理世界中抓起佩戴者。我们设计了一种角度不足的学习方案,该方案利用了时尚数据集的分割和几何扭曲过程,因此生成的对抗模式可有效从所有摄像机角度和看不见的黑盒检测模型欺骗人检测器。数字环境和物理环境中的经验结果表明,随着Invisibilitee的启用,人体跟踪系统检测佩戴者的能力显着下降。
translated by 谷歌翻译
我们研究了将人类设计师创建的基于图像的,逐步组装手册转换为机器可解剖说明的问题。我们将此问题提出为顺序预测任务:在每个步骤中,我们的模型都读取手册,将要添加到当前形状中的组件定位,并注入其3D姿势。此任务构成了在手动图像和实际3D对象之间建立2D-3D对应关系的挑战,以及对看不见的3D对象的3D姿势估计,因为要在步骤中添加的新组件可以是从前一个步骤中构建的对象。为了应对这两个挑战,我们提出了一个基于学习的新型框架,即手动到执行计划网络(MEPNET),该网络(MEPNET)从一系列手动图像中重建了组装步骤。关键思想是将神经2D关键点检测模块和2D-3D投影算法进行高精度预测和强有力的概括为看不见的组件。 MEPNET在三个新收集的乐高手册数据集和Minecraft House数据集上优于现有方法。
translated by 谷歌翻译
3D肺部片段的重建在肺癌的外科治疗计划中起着重要作用,这有助于保存肺功能并有助于确保低复发率。但是,在深度学习时代,肺部段的自动重建仍未得到探索。在本文中,我们研究了是什么使肺部段自动重建。首先,我们在临床和几何上表达了肺部段的解剖学定义,并提出了遵守这些定义的评估指标。其次,我们提出了脉冲(隐式肺部段),这是一种旨在肺部段重建的深层隐式表面模型。通过脉冲自动重建肺部段的指标和视觉吸引力是准确的。与规范分割方法相比,冲动输出连续预测任意分辨率具有较高的训练效率和更少的参数。最后,我们尝试不同的网络输入,以分析肺部段重建任务中重要的事情。我们的代码可在https://github.com/m3dv/impulse上找到。
translated by 谷歌翻译
预测以过去观察和电动机命令为条件的未来视觉观察的能力可以使体现的代理能够计划复杂环境中各种任务的解决方案。这项工作表明,我们可以通过掩盖的视觉建模预训练变压器来创建良好的视频预测模型。我们的方法名为MaskVit,基于两个简单的设计决策。首先,为了记忆和训练效率,我们使用两种类型的窗户注意力:时空和时空。其次,在训练期间,我们掩盖了一个可变百分比的令牌,而不是固定蒙版比率。对于推断,MaskVit通过迭代改进生成所有令牌,在该迭代中,我们会在掩码调度函数后逐步降低掩蔽率。在几个数据集上,我们证明了MaskVit优于视频预测中的先前作品,这是参数有效的,并且可以生成高分辨率视频(256x256)。此外,我们通过使用MaskVit在真实机器人上进行计划,证明了推理加速器的好处(最高512x)。我们的工作表明,我们可以通过利用最小的域知识的掩盖视觉建模的一般框架来赋予体现的代理具有强大的预测模型。
translated by 谷歌翻译
在这项工作中,我们探索了用于视觉接地的整洁而有效的基于变压器的框架。先前的方法通常解决了视觉接地的核心问题,即具有手动设计的机制,即多模式融合和推理。这样的启发式设计不仅复杂化,而且使模型容易过度拟合特定的数据分布。为了避免这种情况,我们首先提出了TransVG,该TransVG通过变压器建立了多模式的对应关系,并通过直接回归框坐标来定位引用区域。我们从经验上表明,复杂的融合模块可以用具有更高性能的变压器编码层的简单堆栈代替。但是,TransVG中的核心融合变压器是针对Uni-Modal编码器的独立性,因此应在有限的视觉接地数据上从头开始训练,这使得很难优化并导致次优性能。为此,我们进一步介绍了TransVG ++以进行两倍的改进。一方面,我们通过利用Vision Transformer(VIT)进行视觉功能编码来将框架升级到一个纯粹的基于变压器的框架。对于另一个人来说,我们设计了语言有条件的视觉变压器,以去除外部融合模块,并重用Uni-Modal vit进行中间层的视觉融合。我们对五个普遍数据集进行了广泛的实验,并报告一系列最先进的记录。
translated by 谷歌翻译